Fairness in Serving Large Language Models

作者信息:UCB的Ying Sheng, Shiyi Cao, Dacheng Li, Banghua Zhu, Zhuohan Li, Danyang Zhuo, Joseph E. Gonzalez, Ion Stoica

链接:[2401.00588] Fairness in Serving Large Language Models

OSDI 2024

一句话总结概括

在保持公平性的情况下实现最大的吞吐量

创新点或贡献

具体设计

公平性:

  • 假如两个客户端都积压了,那么在单位时间内的服务数量需要一样
  • 假如一个客户端积压了,那么在单位时间内它的服务数量一定不小于一个不积压的客户端
  • 一旦有请求在队列中,服务端不应该空闲

实验评估

背景

先前工作存在的问题概述

难点

补充背景

思考角度

我如何做这个问题

这个洞见可以引申出其他其他方法吗

该洞见是否可以迁移到其他领域中

该工作有什么可能可以改进的地方

Q&A

results matching ""

    No results matching ""